模态

视觉感知驱动的多模态推理,阿里通义提出VRAG

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型

模态 推理 视觉 模态推理 vrag 2025-06-03 18:01  9

视觉感知驱动的多模态推理,阿里通义VRAG,定义下一代检索增强生成

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型

模态 推理 rag 视觉 模态推理 2025-06-03 17:27  9

用多维精细感知任务解析多模态大语言模型的方向理解能力

多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这

模型 模态 语言 理解能力 dori 2025-06-03 16:59  10

OpenAI未公开的o3用图思考技术,被小红书、西安交大尝试实现了

OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关

模态 openai 西安交大 o3 提塔利克鱼 2025-06-03 16:38  9

哈佛等顶尖学府研究Token压缩,重塑生成式AI未来

在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh

模态 研究 哈佛 学府 token 2025-06-03 11:51  10

SFT在帮倒忙?新研究:直接进行强化学习

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人

模态 研究 rl sft grpo 2025-06-02 02:57  10

国网河北信通分公司等申请基于混合注意力机制的跨模态检索方法及系统专利,实现更准确的跨模态检索

国家知识产权局信息显示,国网河北省电力有限公司信息通信分公司、北京邮电大学、国家电网有限公司申请一项名为“一种基于混合注意力机制的跨模态检索方法及系统”的专利,公开号CN120071358A,申请日期为2024年12月。

模态 专利 分公司 信通 信通分公司 2025-06-02 13:00  7

中科院理化所刘静/北林王磊团队AFM:无需复杂算法!液态金属线圈“拮抗效应”实现多模态传感高效解耦

在现代科技高速发展的背景下,复杂的操作环境对智能材料的性能提出了更高要求。兼具多响应性、高稳定性与精确反馈能力的智能材料,已成为航空航天、生物医学、智能制造等众多领域的迫切需求。然而,传统智能材料在集成多种响应机制方面存在显著局限性,多模态传感器普遍面临信号交

模态 王磊 刘静 液态金属 解耦 2025-06-01 10:11  10